\documentclass{classrep}
\usepackage[utf8]{inputenc}
\usepackage{color}

\studycycle{Informatyka, studia dzienne, II st.}
\coursesemester{III}

\coursename{Komputerowe systemy rozpoznawania}
\courseyear{2013/2014}

\courseteacher{mgr. inż. Izabela Superson, prof. nadzw.}
\coursegroup{poniedziałek, 16:30}

\author{
  \studentinfo{Rafał Mościński}{nr 186844} \and
  \studentinfo{Marcin Kubczak}{nr 186834} 
}

\title{Zadanie Numer 2: Lingwistyczne podsumowania baz danych na zbiorach rozmytych.}

\begin{document}
\maketitle

\section{Cel}
{
Celem zadania jest implementacja generatora podsumowań lingwistycznych typu 1,2 oraz wielopodmiotowych dla określonej bazy danych.
}

\section{Wprowadzenie}
{

Do generacji wyżej wymieninonych podsumowań wykorzystano bazę danych Adult z repozytorium UCI Machine Learning Repository [1]. Zawiera ona informacje odnośnie zarobków ludzi z całego świata  którzy określeni są przez zestaw następujących cech:

\begin{itemize}
	\item int age;
	\item String workClass;
	\item String education;
	\item int educationYears;
	\item String maritalStatus;
	\item String occupation;
	\item String relationship;
	\item String race;
	\item String sex;
	\item int capitalGain;
	\item int capitalLoss;
	\item int hoursPerWeek;
	\item String nativeCountry;
	\item String income;
\end{itemize}

Baza danych zawiera 45222 rekordów.

\subsection{Podsumowania} 
{
W ramach zadania zaimplementowano poddsumowania typu 1, typu 2 oraz dwa wielopodmiotowe (pierwsze oraz czwarte).

Wygenerowano podsumowania dla następujących podmiotów:

\begin{itemize}

	\item ludzie
	\item mężczyźni
	\item kobiety
	\item amerykanie
	\item meksykanie
	
\end{itemize}

Zaimplementowano następujące kwantyfikatory:

\begin{itemize}

	\item Almost no one (0\%)
	\item Around half (51\%)
	\item Most (70\%)
	\item Almost everyone (95\%)
	
\end{itemize}

Ponadto zaimplementwano następujące sumaryzatory:
\begin{itemize}

\item Age(young,middle-aged,old)
\item Salary(poor,average-wealth,rich)
\item WorkingHours(lazy,normally-working,hard-working)
	
\end{itemize}
	
	
}
}
\section{Opis implementacji}
{
Aplikacja napisana została w języku programowania Java. W ramach zadania zaimplementowano klasy odpowiadające za:
\begin{itemize}

\item zbiór rozmyty (dyskretna przestrzeń rozważań, trójkątna oraz prostokątna funkcja przynależności)
\item kwantyfikator (jako zbiór rozmyty)
\item sumaryzator (jako zbiór rozmyty)
\item kwalifikator (jako zbiór rozmyty)
\item podsumowania lingwistyczne (składające się z wyżej wymienionych elementów, oraz szablonu podsumowania)
\item generator podsumowan lingwistycznych (przechowuje dowolną ilość podmiotów, kwantyfikatorów, sumaryzatorów, kwalifikatorów oraz generuje wszystkie możliwe wariacje podsumowań dla tych elementów.
\end{itemize}

}

\section{Materiały i metody}
{

W celu analizy działania zaimplementowanego generatora wygenerowano podsumowania dla wszystkich podmiotów, kwantyfikatorów oraz sumaryzatorów opisanych w poprzednim rozdziale.


%\begin{table}[h!]
%\centering
%\caption{Testy - etap 2}
%
%\begin{tabular}{|c|c|}
%\hline
%Nazwa ekstraktora & Metryka\\
%\hline
%Para słów & Euklides\\
%\hline
%Para słów & Czebyszew\\
%\hline
%Para słów & Uliczna\\
%\hline
%Para liczba-słowo & Euklides\\
%\hline
%Para liczba-słowo & Czebyszew\\
%\hline
%Para liczba-słowo & Uliczna\\
%\hline
%Ekstraktor największa liczba & Euklides\\
%\hline
%Ekstraktor największa liczba & Czybyszew\\
%\hline
%Ekstraktor największa liczba & Uliczna\\
%\hline
%Ekstraktor słowo-klasa & Euklides\\
%\hline
%Ekstraktor słowo-klasa liczba & Czybyszew\\
%\hline
%Ekstraktor słowo-klasa liczba & Uliczna\\
%
%\hline
%\end{tabular} 

}

\section{Wyniki}
{
Poniżej przedstawiono przykładowe podsumowania wraz z ich stopniem prawdziwości:

Typ 1
\begin{itemize}
\item Almost all people are poor. [T:0.9889855864194892]
\item Almost no  people are rich. [T:0.9889855864194835]
\item Almost no  people are poor. [T:0.011014413580510807]
\item Most people are rich. [T:0.015734876543594956]
\item Most people are young. [T:0.9839242587909646]
\item Most people are lazy. [T:0.8463845933757506]


\end{itemize}

Typ 2

\begin{itemize}
\item Almost all people who are young are poor. [T:0.9956060618942548]
\item Almost all people who  are average wealth are middle aged. [T:0.980988121019304]
\item Almost all people who are old are lazy. [T:0.9671805032163948]
\item Most people who are poor are lazy. [T:0.8521516409508703]
\item Almost no  people who are old are hard-working. [T:0.13903284664993187]

\end{itemize}

Wielopodmiotowe

\begin{itemize}
\item Most Male relatively to Female are rich. [T:0.9947357510921427]
\item Around half Male relatively to Female are lazy. [T:0.9311815350007282]
\item Around half Male relatively to Female are young. [T:0.958502704338119]
\item More Male than Female are rich. [T:0.826484685472671]
\item More Male than Female are lazy. [T:0.6526323286281019]

\end{itemize}
}
\section{Wnioski}
\begin{itemize}

\item zaimplementowany generator poprawnie generuje podsumowania dla bazy danych Adult.

\item Poprawność działania generatora została potwierdzona poprzez sprawdzenie stopnia prawdziwości tych samych podsumowań o przeciwstawnych kwantyfikatorach (np. almost none, almost everyone) oraz takich samych etykietach jak i takich samych kwantyfikatorach oraz przeciwstawnych etykietach (poor/rich, lazy/hardworking). Dla takich przeciwstawnych przypadków stopień prawdziwości podsumowań bardzo różni się od siebie co jest oczekiwaną obserwacją.

\end{itemize}

\begin{thebibliography}{0}
\bibitem{ksr} Baza danych Adult, A., \emph{The UCI Machine Learning Repository},
https://archive.ics.uci.edu/ml/datasets/Adult
\bibitem{ksr} Niewiadomski, A., \emph{Methods for the Linguistic Summarization of Data - Applications of Fuzzy Sets and Their Extensions}
http://ics.p.lodz.pl/~aniewiadomski/ksr/ksr-wyklad-2009.pdf
\bibitem{ksr} I. Superson, Niewiadomski, A., \emph{On Multi-Subjectivity in Linguistic Summarization of Relational Databases},
\end{thebibliography}

\end{document}
